有了来自多个输入模式的信息,基于传感器融合的算法通常在机器人技术中表现出其单模式的表现。带有互补语义和深度信息的相机和激光镜头是复杂驾驶环境中检测任务的典型选择。但是,对于大多数摄像头融合算法,传感器套件的校准将极大地影响性能。更具体地说,检测算法通常需要多个传感器之间的准确几何关系作为输入,并且通常假定这些传感器的内容是同时捕获的。准备此类传感器套件涉及精心设计的校准钻机和准确的同步机制,并且制备过程通常是离线进行的。在这项工作中,提出了一个基于分割的框架,以共同估计摄像机套件校准中的几何和时间参数。首先将语义分割掩码应用于传感器模式,并通过像素双向损失优化校准参数。我们专门合并了来自光流的速度信息,以进行时间参数。由于仅在分割级别进行监督,因此在框架内不需要校准标签。提出的算法在KITTI数据集上进行了测试,结果显示了几何和时间参数的准确实时校准。
translated by 谷歌翻译
Generative models, particularly GANs, have been utilized for image editing. Although GAN-based methods perform well on generating reasonable contents aligned with the user's intentions, they struggle to strictly preserve the contents outside the editing region. To address this issue, we use diffusion models instead of GANs and propose a novel image-editing method, based on pixel-wise guidance. Specifically, we first train pixel-classifiers with few annotated data and then estimate the semantic segmentation map of a target image. Users then manipulate the map to instruct how the image is to be edited. The diffusion model generates an edited image via guidance by pixel-wise classifiers, such that the resultant image aligns with the manipulated map. As the guidance is conducted pixel-wise, the proposed method can create reasonable contents in the editing region while preserving the contents outside this region. The experimental results validate the advantages of the proposed method both quantitatively and qualitatively.
translated by 谷歌翻译
我们建议使用标准化流作为汉密尔顿蒙特卡罗(HMC)的分子动力学中的可训练内核。通过学习(可逆)的转换,简化了我们的动态,我们可以在生成独立配置时优于传统方法。我们表明,使用精心构造的网络架构,我们的方法可以轻松地扩展到大型晶格卷,并刷新工作。我们实施的源代码在HTTPS://github.com/nftqcd/fthmc上公开可用。
translated by 谷歌翻译
为了阐明消失梯度引起的平台现象,我们在本文中分析了多层的渐变子空间附近的随机梯度下降的稳定性。在Fukumizu-Amari模型的随机梯度下降中,这是呈现非琐碎的高原现象的最小多层摄影,我们表明(1)吸引地区存在于繁殖的子空间中,(2)强大的平台现象作为噪音出现 - 在确定性梯度下降中未观察到的同步,(3)存在最佳波动,以最小化退化子空间的逃生时间。预计本文观察到的噪声引起的变性将在广泛的机器学习中找到通过神经网络。
translated by 谷歌翻译